Обновление к vCenter не содержит никакого нового функционала, однако закрывает несколько серьезных проблем и багов, которые были обнаружены с момента релиза платформы в октябре прошлого года в компонентах vCenter и vSAN.
Например, как вам вот такой баг:
In the vSphere Client, if you right-click on a folder and select Remove from Inventory from the drop-down menu, the action might delete all virtual machines in that folder from the disk and underlying datastore, and cause data loss.
То есть вместо убирания машины из инвентори в vSphere Client, происходит удаление всех виртуальных машин из этой папки с диска. Так что лучше обновите свой vCenter уже сегодня. Надо еще помнить, что, по-прежнему, не поддерживается прямое обновление vCenter Server 6.5 Update 2d и 2e на этот релиз. Странно, но VMware никак не может это починить.
Кроме этого VMware выпустила важные патчи к ESXi 6.7, которые содержат исправления ошибок и апдейт подсистемы безопасности.
Тут ничего особенно критичного, но все равно лучше обновиться, особенно если вы используете решение NSX-T.
Теперь новый VCG позволяет получить ответы на следующие вопросы:
Какой дисковый массив поддерживает технологию VVols?
Какую версию ESXi поддерживает тот или иной вендор оборудования?
Какая есть сертификация VASA?
Какие возможности VVols поддерживает устройство?
Какие проблемы или ограничения имее реализация VASA Provider на устройстве?
Кликнув на производителя (Partner Name), вы увидите какие типы VASA Provider он поддерживает и на каких моделях дисковых массивов.
Также, выбрав нужную вам фичу VVols, например, VVols Storage Replication, вы можете вывести всех производителей, кто ее поддерживает:
Раскрыв категорию Partner Name для нужного производителя, вы увидите какие версии ESXi какие функции поддерживают:
Обратите внимание, что справа в таблице есть ссылка "VASA Provider Download", которая позволяет вам загрузить актуальную версию компонента-провайдера интерфейса VASA.
Также есть еще один полезный раздел, который открывается по клику на "Click here for more Details":
Тут уже можно найти детальную информацию о поддерживаемых протоколах, статьях базы знаний (KB), версии VASA provider и VASA VVol Spec, а также многое другое.
В прошлом посте мы рассказывали о IOchain - цепочке прохождения пакетов через сетевой стек хоста VMware ESXi, а в этом остановимся на некоторых утилитах, работающих с этим стеком и помогающих решать различного рода сетевые проблемы.
Прежде всего, при решении проблем соединений на хосте ESXi нужно использовать следующие средства:
Но если хочется углубиться дальше в сетевое взаимодействие на хосте, то тут могут оказаться полезными следующие утилиты:
net-stats
pktcap-uw
nc
iperf
1. Net-stats.
Чтобы вывести весь список флагов этой команды, используйте net-stats -h, а вот для вывода детальной информации о номерах портов и MAC-адресах всех интерфейсов используйте команду:
net-stats -l
С помощью net-stats можно делать огромное количество всяких вещей, например, проверить включены ли на интерфейсе vmnic функции NetQueue или Receive Side Scaling (RSS) с помощью команды:
net-stats -A -t vW
Далее нужно сопоставить вывод блока sys для нужного интерфейса и вывода команды:
vsish -e cat /world/<world id>/name
2. Pktcap-uw.
Эта утилита совместно с tcpdump-uw захватывать пакеты на различных уровнях. Если tcpdump-uw позволяет захватывать пакеты только с интерфейсов VMkernel, то pktcap-uw умеет захватывать фреймы на уровне виртуального порта, коммутатора vSwitch или аплинка.
В KB 2051814 подробно описано, как можно использовать утилиту pktcap-uw. На картинке ниже представлен синтаксис использования команды, в зависимости от того, на каком уровне мы хотим ее применить:
Фильтрация пакетов для выбранного MAC-адреса:
pktcap-uw --mac xx:xx:xx:xx:xx:xx
Фильтрация пакетов для выбранного IP-адреса:
pktcap-uw --ip x.x.x.x
Автоматическое исполнение и завершение pktcap-uw с использованием параметра sleep:
pktcap-uw $sleep 120; pkill pktcap-uw
Ограничить захват заданным числом пакетов:
pktcap-uw -c 100
Перенаправить вывод в файл:
pktcap-uw -P -o /tmp/example.pcap
3. NC
NC - это олдскульная Linux-команда NetCat. Она позволяет проверить соединение по указанному порту, так как telnet недоступен на ESXi. Например, так можно проверить, что можно достучаться через интерфейс iSCSI по порту 3260 до системы хранения:
nc -z <destination IP> 3260
В KB 2020669 вы можете найти больше информации об этой команде.
4. Iperf
Эта утилита предназначена для контроля пропускной способности на интерфейсе. Она используется механизмом vSAN proactive network performance test, который доступен в интерфейсе vSAN. Поэтому при ее запуске вы получите сообщение "Operation not permitted". Чтобы она заработала, нужно создать ее копию:
По умолчанию утилита работает на портах, которые запрещены фаерволом ESXi, поэтому во время работы с ней нужно его потушить (не забудьте потом его включить):
esxcli network firewall set --enabled false
Теперь можно использовать эту утилиту для замера производительности канала (флаг -s - это сервер, -c - клиент):
Как вы знаете, в VMware vSphere 6.7 Update 1 средство обновления vSphere Update Manager (VUM) получило множество новых возможностей, в том числе функцию обновления микрокода (firmware) I/O-адаптеров серверов, входящих в состав кластера vSAN. Эта функциональность как раз перекочевала туда из интерфейса vSAN (называлось это раньше Configuration Assist).
VUM использует утилиту обновления драйверов от вендора оборудования (сервера). Таким образом, обновление драйвера I/O-устройства (HBA-адаптера) можно включить в двухступенчатый цикл обновления хоста и не заниматься этим отдельно, что уменьшает общее время обновления.
Если VUM не нашел утилиты обновления от вендора, он предлагает загрузить ее. Для этого он анализирует Release Catalog, учитывая информацию из HCL (Hardware Compatibility List). При этом поддерживаются и кастомные ISO-образы от OEM-производителей (версия билда ESXi также распознается).
Когда вы зайдете в Host Updates в VUM, вы увидите вот такое сообщение:
Firmware engine needs to download hardware vendor’s firmware tool to vCenter.
Если вы нажмете "Download vendor firmware tool", то увидите, что для загрузки утилиты обновления микрокода можно использовать как дефолтный, так и свой репозиторий:
Как это известно по ситуации с драйверами Windows, установщик не найдет нужный драйвер, поэтому, скорее всего, придется указать свой путь к утилите обновления, например для контроллера Dell PERC путь может выглядеть как-то так:
Обратите внимание, что по кнопке Browse можно указать свой файл, если у вас нет подключения к интернету:
Кстати, проверки состояния vSAN health checks интегрированы с рабочими процессами Update Manager, что позволяет приостановить процесс обновления хостов кластера в случае, если после обновление с одним из них пошло что-то не так. Также есть возможность загрузить на сервер vCenter файл HCL-манифеста в формате JSON, чтобы указать соответствия билдов ESXi и оборудования, если вы обновляетесь через VUM в офлайн-режиме.
Недавно компания VMware сделала доступной онлайн интересную утилиту - VMware Configuration Maximums Tool. Она позволяет быстро и просто найти максимальные параметры конфигураций для различных продуктов VMware:
На данный момент поддерживаются решения NSX Data Center for vSphere, vSphere (правда пока еще нет vSphere 6.7 Update 1), VMware NSX-T, vRealize Operations Manager и VMware Site Recovery Manager, но, скорее всего, этот список будет быстро пополняться.
Помимо продукта VMware и его версии, можно также выбрать и категории максимумов, которые хочется посмотреть (хосты ESXi, виртуальные машины и т.п.). Также полученные результаты можно экспортировать в PDF.
Если в верхней части страницы перейти на вкладку Compare Limits, то мы увидим функционал сравнения максимумов в различных версиях продуктов. Например, выберем слева VMware vSphere 6.7 и сравним с ней две предыдущих версии платформы - vSphere 6.5 Update 1 и vSphere 6.5:
Результаты будут приведены в таблице (обратите внимание, что их можно экспортировать в CSV):
Сегодня Алексей расскажет про две тонкости с которыми пришлось повозиться на следующем этапе установки – обе относятся к подготовке образа для установки.
Первая – выбор места для установки. Если в вашем сервере на момент загрузки присутствует один диск, и вы планируете его использовать для установки, то проблем нет. А если их несколько, и вам нужно использовать какой-то определенный, то придется указать на желаемый диск с помощью команды:
install --disk=diskname или install –-firstdisk=disk-type
В моем же случае в системе имелся маленький SSD (так называемый BOSS card, в случае Dell – RAID1 массив из двух SATA m.2 SSD) для установки системы и большой RAID-массив, на котором теоретически могли располагаться виртуальные машины (в случае если производится переустановка хоста).
Что в вышеприведенной статье не упомянуто – так это как найти diskname или disk-type для искомого диска/массива.
А сделать это можно следующим образом:
Проведите тестовую установку в ручном режиме.
Запустите SSH сервис и подключитесь к серверу по SSH.
Используйте команду esxcli storage core device list для того, чтобы получить список всех контроллеров в системе.
Искомая информация для вашего контроллера будет в поле Model:
Вторая тонкость выяснилась, когда я начал тестировать загрузочный диск. Сервер из другой поставки наотрез игнорировал содержимое kickstart файла. Выяснилось что один из серверов был сконфигурирован использовать EFI для загрузки, другой же - классический BIOS. ISO-образ ESXi содержит два различных BOOT.CFG файла для этих двух типов загрузки:
для BIOS - в корне образа
для EFI - соответственно, в папке /EFI/BOOT
Если в вашем случае, как и мне, нужно иметь один kickstart файл для обоих типов загрузки, не забудьте отредактировать оба файла.
Недавно мы писали про то, как работает механизм регулирования полосы канала Network I/O Control (NIOC) в VMware vSphere, который позволяет приоритизировать различные типы трафика на одном сетевом адаптере, а сегодня взглянем на сам механизм прохождения трафика по уровням абстракции виртуального коммутатора изнутри.
Цепочка прохождения пакетов по сетевому стеку гипервизора ESXi через различные уровни называется Network IOChain. Это фреймворк, который позволяет на пути следования данных от виртуальной машины к физическому сетевому адаптеру производить различную модификацию данных и передачу их на следующий уровень.
IOChain обеспечивает связность виртуального коммутатора vSphere Standard Switch (VSS) или vSphere Distributed Switch (VDS) от групп портов на них к портам физических сетевым адаптеров (uplikns) в процессе передачи и обработки пакетов между этими сущностями. Для каждого из виртуальных коммутаторов есть 2 интерфейса IOChain (для входящего и исходящего трафика). Это дает большую гибкость по настройке политик каналов трафика Ingress и Egress.
Примерами таких политик служат поддержка сетей VLAN, механизма группировки NIC teaming и шейпинг трафика (traffic shaping). Работают эти политики на трех уровнях абстракции (в порядке следования от виртуальной машины):
Группа портов виртуального коммутатора (port group).
На этом уровне работает фильтрация VLAN, а также политики безопасности, такие как Promiscuous mode, MAC address changes и Forged transmits. Пользователи также могут настроить политики шейпинга исходящего трафика (для VSS) или в обоих направлениях (только для VDS).
Обычный или распределенный виртуальный коммутатор (VSS или VDS).
Основная задача этого уровня - направлять пакеты к нужному порту (аплинку), через которые они достигнут адреса назначения. Он оперирует MAC-адресами источника и назначения, а также определяет, отдавать ли трафик локально (в рамках одного или нескольких виртуальных коммутаторов на хосте), либо перенаправлять его к уровню аплинка хоста ESXi.
Кроме того, на этом уровне настраиваются правила NIC teaming по балансировке пакетов между аплинками, подключенными к данному коммутатору. Ну и на этом уровне можно также настраивать политики шейпинга и безопасности для всего виртуального коммутатора в целом.
Порт (uplink).
Этот уровень отвечает за передачу трафика к драйверу сетевого адаптера. На этом уровне работают функции hardware offloading, облегчающие работу с обработкой пакетов за счет ресурсов сетевой карты. Доступные возможности hardware offloading зависят от конкретной модели карты и ее драйвера. Примерами таких возможностей являются TCP Segment Offload (TSO), Large Receive Offload (LRO) и Checksum Offload (CSO). Также здесь обеспечивается поддержка оверлейных протоколов VXLAN и Geneve, которые используются в решениях NSX-v и NSX-T соответственно (эта поддержка есть во многих современных сетевых картах).
Помимо этого на уровне аплинка работают механизмы буфферизации пакетов при всплесках нагрузки (ring buffers), после чего пакеты передаются на DMA-контроллер, чтобы быть обработанными процессором карты и перенаправлены уже в сеть передачи данных.
Для обычного виртуального коммутатора (VSS) схема прохождения трафика через уровни абстракции IOChain
выглядит так:
Если же у вас распределенный виртуальный коммутатор VDS, то вы можете использовать механизм Network I/O Control (NIOC) для резервирования и приоритизации трафика внутри канала аплинков. Также VDS предоставляет множество дополнительных возможностей, таких как LBT (Load Balanced Teaming) и LACP (Link Aggregation Control Protocol).
В случае с VDS схема с IOChain выглядит следующим образом:
Обратите внимание, что на этой диаграмме есть дополнительный модуль DVfilter. Это API-фреймворк, который есть в VDS и требуется для работы решения NSX. Когда компоненты NSX устанавливаются в ядро ESXi, они взаимодействуют с трафиком именно через этот модуль.
С помощью команды summarize-dvfilter можно вывести все загруженные агенты DVfilter и фильтры. Вот так это выглядит без установленного решения NSX:
Если вы посмотрите информацию по компонентам NSX, когда он установлен, то увидите модули nxst-switch-security, nsxt-vsip и nsxt-vdrb.
Вообще, весь стек IOChain является модульным, что позволяет добавлять новую функциональность его компонентов на различных уровнях абстракции. Например, компоненты DVfilter разделяются на Fastpaths, Slowpaths и Filters:
Fastpaths – фильтры трафика на уровне ядра ESXi.
Slowpaths – интеграция со сторонними продуктами для сетевой инфраструктуры.
Filters – размещение фильтров в слоты для каждого из подходящих по модели сетевых адаптеров vNIC.
В VMware vSphere 6.7 в стеке IOChain появилось несколько улучшений, таких как поддержка MAC learning и функции IGMP snooping через интерфейс VNI (Virtual Network Interface), которые могут быть использованы в будущем.
Ну и напомним, что текущая версия распределенного виртуального коммутатора VDS - это 6.6, об их обновлении мы писали вот тут.
Здесь мы можем увидеть вот такие цены за хост ESXi с сервисами vSphere/vSAN/NSX в час (на самом деле, это от $7 в час, а цены ниже указаны для новых клиентов в течение 3 первых месяцев):
Если вы подпишете контракт на год, скидка будет 30%, если на 3 года - 50%.
На этой же странице ниже расположен калькулятор стоимости аренды IaaS-инфраструктуры vCloud on AWS, где можно посчитать примерную цену аренды хостов SDDC (2 CPU, 36 ядер, 512 ГБ оперативной памяти, флэш-хранилище NVMe: 3.6 ТБ кэш, плюс 10.7 ТБ сырой емкости для ВМ).
Для четырех хостов ESXi на месяц у меня получилась стоимость 30 тысяч долларов, что как-то слишком дорого:
На данный момент также существует 2 онлайн-сервиса, которые позволяют оценить затраты на IaaS-инфраструктуру VMConAWS с точки зрения стоимости владения за 3 года:
1. Базовый калькулятор стоимости владения: VMware Cloud on AWS and Microsoft Azure: A Hybrid Cloud TCO Comparison.
В левой панели вводите число виртуальных машин (как в облаке, так и на собственной площадке под управлением VMC) и длительность контракта (год, 3 года или по мере использования) и получаете оценку затрат за 3 года в виде совокупной стоимости владения TCO (total cost of ownership), а также стоимость машиночаса. Это все подается еще и в сравнении со стоимостью владения ресурсами публичного облака Microsoft Azure (насчет точности конкурентных расчетов есть определенные сомнения):
2. Расширенный калькулятор стоимости владения: VMware Cloud on AWS Sizer and TCO.
В этом средстве расчета вы уже задаете профили рабочей нагрузки с их назначением, указываете число виртуальных машин с их параметрами (диск/профиль операций ввода-вывода, память, процессор) и получаете расчет совокупной стоимости владения с детальной разбивкой по статьям затрат, а также детальным описанием планируемой IaaS-инфраструктуры:
Согласно калькулятору, 100 виртуальных машин с дефолтными настройками профиля нагрузки за 3 года обойдутся в 400 тысяч долларов.
Кстати, пользователи продукта VMware vRealize Business for Cloud могут в нем провести обследование своей инфраструктуры для оценки затрат на содержание такой же облачной среды, но на стороне vCloud on AWS:
На написание этого поста меня вдохновила достаточно старая, но лично мною обнаруженная совсем недавно статья Романа Гельмана "PowerShell скрипт для автоматической установки ESXi хостов на серверах IBM/Lenovo". Какое-то время назад появилась необходимость автоматизировать процесс развертывания новой инфраструктуры для vSphere для клиента...
Весной 2018 года Selectel запустил услугу резервного копирования для Облака на базе VMware посредством Veeam® Backup&Replication™ (далее VBR). К реализации проекта мы подошли основательно, спланировали и выполнили следующий перечень работ:
Изучение документации и лучших практик по продуктам Veeam
Разработку архитектуры VBR уровня сервис-провайдера
Недавно мы писали о политиках хранилищ Storage Policy Based Management (SPBM) на базе тэгов, которые помогают использовать возможности платформы VMware vSphere для назначения виртуальным машинам хранилищ на томах VMFS/NFS с разными характеристиками, который работает на уровне отдельных виртуальных дисков.
Сегодня мы поговорим о политиках SPBM для виртуальных томов VVols на хранилищах, которые предоставляют различные возможности через интерфейс VASA (vSphere APIs for Storage Awareness). Механизм VASA реализуется производителем дисковой системы (storage provider) на программно-аппаратном уровне, при этом дисковый массив полностью отвечает за использование его возможностей, а со стороны vSphere возможно только управление ими средствами механизма SPBM.
Через интерфейс VASA Provider устройство хранения сообщает платформе vSphere, какие сервисы оно предоставляет, а через административный том на хранилище Protocol Endpoint (PE) происходит процессинг операций ESXi с массивом:
К таким возможностям в общем случае относятся:
Шифрование
Дедупликация данных на массиве
Репликация данных внутри массива и на другие массивы
Функции уровня обслуживания QoS (ограничения по IOPS и Latency)
Выбор яруса хранения / типа дисков (регулирование уровня производительности)
Также возможна реализация в массиве и других сервисов, таких как защита с помощью снапшотов, использование различных размеров блока для разных приложений и т.п.
Самое приятное в использовании механизма SPBM для хранилищ на основе VVols в том, что вам не требуется заботиться о томах LUN, дисковых группах и настройке их параметров - массив сам распорядится размещением данных по ярусам (Tiers) и датасторам, а также обеспечением уровня их производительности (Service levels).
Например, вот так просто выглядят правила (Rules) для первичного размещения виртуальных машин на массиве EMC Unity при выборе уровня обслуживания и производительности для новой политики SPBM:
В массивах может быть также реализован QoS в зависимости от критичности приложения (Mission Critical приложения всегда первыми получат ресурсы ввода-вывода):
Некоторые хранилища, например, HPE Nimble, могут предоставлять сразу большое число сервисов, для каждого из которых можно настроить свои правила:
Хранилище может предоставлять не только правила размещения виртуальных машин и обеспечения их функционирования, но и сервисы репликации, как например у Pure Storage (они позволяют, в том числе, настроить репликацию на уровне отдельных VMDK дисков машин):
Также создание политик SPBM для томов VVols можно посмотреть на видео ниже:
А вот так применяются политики SPBM, включая сервисы репликации:
Когда вы обновляете виртуальную инфраструктуру VMware vSphere, нужно также подумать и об обновлении виртуального коммутатора (vSphere Distributed Switch, VDS), который, в зависимости от версии, предоставляет те или иные возможности.
Если вы хотите обновить VMware vSphere 5.5 на последнуюю версию VMware vSphere 6.7 Update 1, то, как вы уже знаете, прямого апгрейда нет. Вам нужно будет обновиться на одну из версий - vSphere 6.0 или 6.5 - и потом уже накатить апгрейд до версии 6.7.
В этом процессе есть нюанс - если вы обновитесь с 5.5 на 6.x, то вам надо будет обновить и Distributed Switch, до того, как будете проводить апгрейд на версию 6.7. В противном случае процесс обновления до версии 6.7 завершится неудачно.
Обновить распределенный коммутатор очень просто: в vSphere Client нужно зайти в Networking, выбрать там ваш VDS-коммутатор и на вкладке "Summary" кликнуть на ссылку, где написано "Upgrades available":
Чтобы запустить процесс обновления VDS, нужно в меню "Actions" выбрать пункт "Upgrade":
В процессе обновления вам предложат выбрать версию VDS, если кликнуть на иконку <i>, то можно узнать какие фичи предоставляют соответствующие версии:
Обратите внимание, что соответствие версий VDS версиям vSphere следующее:
vSphere 6.0 = VDS 6.0
vSphere 6.5 = VDS 6.5
vSphere 6.7 = VDS 6.6 (да, вот так странно)
После обновления убедитесь, что виртуальный коммутатор имеет ту версию, которую вы выбрали:
И еще вам может оказаться полезной информация о потенциальных проблемах при обновлении на VDS 6.6, описанная в KB 52621.
Как знают многие пользователи кластеров отказоустойчивых хранилищ VMware vSAN, это решение очень хорошо обрабатывает различные сценарии отказа дисковой подсистемы кластера, чтобы обеспечить бесперебойное функционирование виртуальных машин. Недавно мы писали о том, как vSAN обеспечивает переход в режим обслуживания хостов, а сегодня поговорим о сценариях отказов дисковых компонентов.
Как известно, дублирование дисковых компонентов и объектов в кластере vSAN зависит от политики Failures to tolerate (FTT) и уровня RAID, заданного для политики, которой подчиняется виртуальная машина:
Если для машин хоста задана политика с FTT=1 и RAID-1, то в общем случае, при отказе хоста ESXi, через 60 минут начинается ресинхронизация его дисковых объектов на других хостах, чтобы обеспечить выполнение политики FTT.
В случае сбоя какого-либо из компонентов дисковой подсистемы хранения кластера (от диска до хоста) механизм vSAN делит характер сбоя на 2 состояния: APD (All Paths Down) и PDL (Physical Device Loss). Об этих состояниях мы подробно писали вот тут.
APD (All Paths Down) - когда хост-сервер ESXi не может получить доступа к устройству ни по одному из путей, а также устройство не дает кодов ответа на SCSI-команды. Это состояние считается временным и также называется "absent". Иными словами, мы не знаем, что случилось с устройством, может быть оно будет доступно в будущем. В этом случае vSAN не начинает сразу восстановление дисковых компонентов и объектов, а ждет 60 минут, чтобы не тратить напрасно ресурсы в случае, если устройство снова станет доступно. Время до начала восстановления можно регулировать настройкой Object Repair Timer, о которой мы детально писали вот тут.
PDL (Physical Device Loss) - состояние, когда хост-серверу ESXi удается понять, что устройство не только недоступно по всем имеющимся путям, но и удалено совсем, либо сломалось. Определяется это, в частности, по коду ответа для SCSI-команд, например, вот такому: 5h / ASC=25h / ASCQ=0 (ILLEGAL REQUEST / LOGICAL UNIT NOT SUPPORTED) - то есть такого устройства на массиве больше нет. Этот статус считается постоянным и также называется "degraded". В этом случае кластер vSAN сразу начинает восстановление дисковых объектов, несмотря на значение Object Repair Timer. Примером таких состояний является выход из строя дискового массива или его части, поломка HBA/RAID-контроллера и т.п.
Давайте посмотрим, как именно реагирует кластер vSAN на различные варианты отказов и поломок дисковой подсистемы в кластере:
Сценарий отказа
Поведение vSAN
Воздействие на ВМ и поведение HA
Отказ диска в группе кэширования
Дисковая группа помечается как "failed", и все ее компоненты перестраиваются на другой дисковой группе (rebuild).
ВМ продолжат работать
Отказ диска с данными (функции Dedupe и Compression включены)
Дисковая группа помечается как "failed", и все ее компоненты перестраиваются на другой дисковой группе (rebuild).
ВМ продолжат работать
Отказ диска с данными (функции Dedupe и Compression отключены)
Диск помечается как "failed", и все его компоненты перестраиваются на другом диске группы (rebuild).
ВМ продолжат работать
Отказ дисковой группы
Все компоненты группы перестраиваются на другой дисковой группе (rebuild).
ВМ продолжат работать
Отказ контроллера RAID/HBA-карточки
Все дисковые группы под контролем карточки HBA/RAID будут помечены как absent и будут перестроены на других дисковых группах (rebuild).
ВМ продолжат работать
Отказ хоста или изоляция хоста
Компоненты на хосте будут помечены как absent и через 60 минут, если хост не вернется в онлайн, будут признаны устаревшими с последующим удалением (stale) после начал процесса перестроения дисковых объектов этого хоста (rebuild).
ВМ других хостов продолжат работать, ВМ этого хоста будут перезапущены HA на других хостах.
А вот графическая иллюстрация того, что происходит через 60 минут в кластере при отказе хоста ESXi. Обратите внимание, что если хост появится снова онлайн после сбоя и начала ресинхронизации (>60 минут) - его дисковые компоненты будут признаны "stale" и удалены механизмом vSAN, чтобы использовать его дисковое пространство в полном объеме.
Недавно компания Gartner выпустила Magic Quadrant for Hyperconverged Infrastructure (HCI) за 2018 год, посвященный средствам создания гиперконвергентной инфраструктуры. Это такая среда, которая позволяет объединить вычислительные ресурсы, системы хранения и сети с помощью технологий виртуализации и собрать все компоненты в единую интегрированную сущность, которая управляется из одной точки.
Напомним, что об этом квадранте мы уже писали в начале года, и с тех пор кое-что изменилось:
Вот как было в январе этого года:
Главным лидером рейтинга, как и прежде, сейчас признана компания Nutainx - производитель продуктов для создания гиперконвергентной среды. Сейчас Nutanix поставляет как чисто программные решения (в виде виртуальных модулей), так и программно-аппаратные комплексы (партнерские решения Lenovo, Dell EMC, Fujitsu и IBM). Помимо этого, Nutanix в рамках раннего доступа запустила и облачный сервис для своих HCI-решений.
Несмотря на то, что VMware - это производитель только программных решений, она попала в сегмент лидеров вполне заслуженно. У VMware в последние годы было выпущено очень много того, что относится к HCI - например, сейчас компания поддерживает более 500 моделей серверов в рамках программы ReadyNode для построения кластеров vSAN.
Также VMware поддерживает инициативу VMware Cloud Foundation (VCF), о которой мы много писали в последнее время. Архитектура VCF включает в себя компоненты VMware vRealize Suite, VMware vSphere Integrated Containers, VMware Integrated OpenStack, VMware Horizon, NSX и другие, работающие в онпремизной, облачной или гибридной инфраструктуре предприятия, которые желательно развертывать все вместе, но можно какие-то и опустить.
Ну и, конечно же, в последнее время VMware делает очень много усилий по продвижению гибридной среды VMware Cloud on AWS, которая будет доступна не только из облака, но и в частной инфраструктуре предприятий (Amazon Outposts).
Родительская компания VMware - Dell EMC - в этом квадранте занимает высокое место благодаря решениям VxRail и VxRack, в состав которых, кстати, входит продукт для создания кластеров отказоустойчивых хранилищ vSAN.
Обратите внимание, что существенный прогресс наблюдается у Cisco - из сегмента челенджеров она переместилась в лидеры. Прежде всего, это случилось благодаря доработке платформы Cisco HyperFlex, котора интегрирует в себе архитектуру Cisco Unified Computing System (UCS), сочетающую в себе продукты Network Fabric, управляющую облачную консоль Intersight, сторонний гипервизор (например, ESXi), а также платформу для управления хранилищами и данными HX Data Platform (разработанную компанией Springpath, которую Cisco купила в сентябре 2017 года).
О магических квадрантах Gartner
Напомним, что Magic Quadrant используется для оценки поставщиков какого-либо сегмента рынка информационных технологий, где Gartner использует две линейные прогрессивные экспертные шкалы:
полнота видения (completeness of vision)
способность реализации (ability to execute)
Каждый поставщик, попавший в рамки рассмотрения для исследуемого сегмента рынка, оценивается по этим двум критериям. При этом, полнота видения откладывается на оси абсцисс, способность реализации — на оси ординат. Каждый поставщик, таким образом, оказывается в одном из четырёх квадрантов плоскости, называемых:
Лидеры (leaders) — поставщики с положительными оценками как по полноте видения, так и по способности реализации.
Претенденты (сhallengers) — поставщики с положительными оценками только по способности реализации.
Провидцы (visionaries) — поставщики с положительными оценками только по полноте видения.
Нишевые игроки (niche players) — поставщики с отрицательными оценками по обоим критериям.
Мы уже упоминали о политиках хранилищ SPBM, (Storage Policy Based Management) в кластере VMware vSAN, которые представляют собой очень гибкий механизм для выделения виртуальным машинам хранилищ с разными характеристиками, который работает на уровне отдельных виртуальных дисков.
Политики SPBM разделяются на 3 основных области:
Storage Capabilities and Services - это политики, которые работают, когда хранилище vSAN или VVols представлено через интерфейс VASA производителем дисковой подсистемы (storage provider). Через VASA это устройство сообщает, какие сервисы оно предоставляет.
Data Services - это политики, настраиваемые на уровне хоста ESXi, они также реализуются на стороне дискового устройства (storage provider). Эти политики не определяют размещение виртуальных машин, но влияют на их возможности, например, использование шифрования или механизма SIOC.
Tags - это политики, которые используются хранилищами, которые не предоставляют каких-либо специфических функций, как правило - это обычные тома VMFS и NFS традиционных дисковых массивов без поддержки VASA.
В этой статье мы рассмотрим использование таких объектов, как тэги (Tags) и категории (Categories). Они могут оказаться полезными, когда вы хотите высокоуровнево определить параметры размещения и конфигурации виртуальных машин и их дисков на хранилищах, хостах, кластерах или в других объектах виртуальной инфраструктуры.
Поддержка правил на базе тэгов определяется при создании политики:
С помощью тэгов можно задать ярусы размещения ВМ, конфигурации дисков и их расположение, тип ОС, департамент, к которому принадлежит ВМ, тип дисков SAS/SATA/SSD и многое другое. Вот какие аспекты размещения внутри объектов виртуальной инфраструктуры можно контролировать через категории и тэги:
Например, вы хотите сделать так, чтобы виртуальные машины с гостевой ОС Linux попадали на определенные хранилища. В этом случае надо создать категорию "OS" для объектов Datastore и Datastore Cluster и тэг "Linux", который надо назначить заданным хранилищам. После этого машины с таким тэгом при выборе соответствующей политики SPBM будут попадать на заданные стораджи.
Так, например, может выглядеть конфигурация тэгов и категорий в вашей инфраструктуре:
В рамках одной политики можно использовать до 128 тэгов - это излишне, но если у вас есть фантазия, то вы можете использовать их все) Например, вы можете использовать категорию Department для отдела, а внутри создать тэги для всех отделов: Financial, HR, Engineering и т.п.
Категории и тэги можно использовать для разных аспектов конфигураций хранилищ. Например, тип ОС или тип дисков, на которых размещены ВМ (Category: Disk Type, Tag: SAS).
После создания тэга его нужно добавить к соответствующим датасторам и создать политику, которая использует соответствующие тэги. Это позволит определить размещение виртуальных машин при их создании, миграции или клонированию.
Весь этот процесс показан на видео ниже:
Еще одно преимущество такой механики заключается в том, что вы можете изменить хранилище, которое располагается под политикой, без изменения самой политики. То есть вы добавляете тэг какому-нибудь хранилищу, и оно автоматически попадает в политику с этим тэгом для размещения ВМ. Политику также можно ассоциировать с кластерами хранилищ (datastore clusters), что добавляет еще гибкости этому механизму.
Политики SPBM можно использовать не только отдельно для томов VMFS и NFS, но и для инфраструктуры vSAN и VVols, которые регулируются политиками на уровне хостов (host-based services). Например, можно создать политику, которая позволяет виртуальной машине использовать тома VVols, но только в определенном физическом размещении. Таким образом, с помощью провайдера VASA вы выбираете storage capability как VVols, а с помощью тэгов - физическое размещение ВМ.
Вот как это работает при создании политики:
С помощью PowerCLI вы можете получить информацию о виртуальных машинах или хранилищах, тэгированных определенным тэгом. Вот пример команды для ВМ:
Get-VM -Tag Windows
Name PowerState Num CPUs MemoryGB
---- ------- -------- --------
Windows-VMFS-VM PoweredOff 1 4.000
Win10-3 PoweredOn 2 4.000
jm-ws2016 PoweredOn 2 4.000
Win10-2 PoweredOn 2 4.000
И для хранилища:
Get-Datastore -Tag California
Name FreeSpaceGB CapacityGB
---- --------- ----------
N-VVol-Cali 2,048.000 2,048.000
При использовании механизмов размещения SPBM можно задавать уровень возможности их нарушения (Enforcement). Об этом вы можете прочитать в KB 2142765.
Многие из вас используют фреймворк VMware PowerCLI для автоматизации операций в виртуальной инфраструктуре (см. статьи нашего автора Романа Гельмана). Между тем, не все знают, что PowerCLI - это точно такой же поддерживаемый продукт VMware, как и все остальные, с точки зрения обращений в техническую поддержку. То есть, если вы обнаружили некорректное поведение скрипта PowerCLI и не можете выяснить причину - то имеет смысл открыть Support Ticket.
Но чтобы инженеры VMware получили всю необходимую диагностическую информацию, часто оказывается недостаточно сгенерировать support-бандлы для хоста ESXi или сервера vCenter. Иногда нужно залезть глубже, чтобы получить информацию об API-вызовах, например, с помощью инструментов Fiddler или Wireshare.
Но можно сделать все гораздо проще - есть командлет Get-ErrorReport, который соберет для вас всю необходимую диагностическую информацию об ошибке и добавит ее в zip-пакет для отправки как вложения support-тикета. Давайте вызовем ошибку, к примеру, известную проблему PowerCLI, которая возникает при попытке переместить виртуальную машину с помощью Move-VM в виртуальный сервис vApp:
Move-VM : 11/14/2018 1:12:31 PM Move-VM A specified parameter was not correct:
PlacementSpec.relocateSpec.pool
Чтобы получить support бандл для этой ошибки, нужно использовать командлет, у которого есть следующие параметры:
Destination - директория назначения результирующего бандла.
IncludeServerLogs - нужно ли вытягивать логи с сервера, к которому мы подключены.
ProblemDescription - описание проблемы для технической поддержки.
ProblemScript - участок скрипта, который вызывает ошибку.
Таким образом, давайте попробуем вызвать командлет Get-ErrorReport:
$errorCode = {
$appsvr = Get-VM -Name appsvr02
$vapp = Get-VApp -Name DemovApp
Move-VM -VM $appsvr -Destination $vapp
}
Get-ErrorReport -ProblemScript $errorCode -Destination .\Documents\ -ProblemDescription "Using Move-VM to place a VM into a vApp"
Результатом работы сценария будет саппорт-бандл PowerCLI, лежащий в заданной папке:
Если заглянуть внутрь этого zip-пакета, то можно увидеть там следующие файлы:
PowerCLI-Main-Log.svclog
Powershell-Debug-Stream.txt
Powershell-Error-Stream.txt
Powershell-Info-Stream.txt
Powershell-Verbose-Stream.txt
Powershell-Warning-Stream.txt
Это все диагностические файлы, полный комплект которых позволит техподдержке VMware помочь решить вам вашу проблему с PowerCLI.
Кстати, файл с расширением *.svclog можно открыть с помощью инструмента Microsoft Service Stack Trace Viewer. В данном случае мы там увидим, что API-сервис вернул ошибку internal server error с кодом 500:
Для более детального исследования надо уже смотреть внутрь остальных файлов - это работа технической поддержки VMware, куда вы можете оформить запрос, используя материалы вот по этой ссылке.
Еще 8 лет назад мы писали о кэшировании в решении StarWind Virtual SAN, которое является лучшим на сегодняшний день программным средством создания отказоустойчивых хранилищ для виртуальных машин. У кэширования на запись write-back есть недостаток - возможность потери данных в случае отключения электропитания. Поэтому сегодня мы расскажем о том, что такое новый Log-structured Write Cache (LWC), и для чего он нужен...
Как знают многие пользователи решения для создания отказоустойчивых кластеров VMware vSAN, в данном продукте есть возможность перевода хоста в режим обслуживания (Enter Maintenance Mode, EMM), который позволяет вывести его на время из эксплуатации с сохранением работоспособности кластера в целом. При этом происходит взаимодействие vSAN и механизма балансировки нагрузки VMware vSphere Distributed Resource Scheduler (DRS), который эвакуирует виртуальные машины с хоста ESXi.
Давайте посмотрим, как работает EMM для кластера vSAN, и какие есть опции для данной процедуры. Чтобы перевести хост ESXi в режим обслуживания, надо нажать на него правой кнопкой в vSphere Client и выбрать пункт Maintenance Mode > Enter Maintenance Mode.
Далее мы увидим окно перевода хоста в режим обслуживания, где можно выбрать одну из трех опций:
Full Data Migration – это миграция всех компонентов дисковых объектов на другие хосты кластера.
Ensure Accessibility – это миграция только тех компонентов, которые есть в кластере в единственном экземпляре. При этом, для некоторых объектов в этом случае не будет соблюдена политика Failures to tolerate (FTT).
No Data Migration – в этом случае никакие компоненты не будут перемещены с хоста, поэтому некоторые ВМ могут оказаться недоступными (если на этом хосте их дисковые компоненты находятся в единственном экземпляре, а уровень RAID недостаточен для предоставления доступа к объекту).
С первым пунктом (Full Data Migration) все ясно - он вызывает долговременную процедуру миграции всех дисковых объектов и не всегда оправдан, когда хост ESXi нужно погасить лишь ненадолго. Но если вы выводите хост ESXi из эксплуатации производственного кластера (либо останавливаете, например, на несколько дней), то нужно выбирать именно Full Data Migration.
Давайте подробнее рассмотрим вариант Ensure Accessibility, который как раз подходит для кратковременного обслуживания хоста и последующего его повторного ввода в эксплуатацию. Если у вас достаточно запаса дисковых ресурсов, и виртуальные диски машин работают в RAID-1, то копии дисковых объектов переводимого в режим обслуживания хоста должны быть на других серверах. На картинке ниже реплика объекта C1 есть на другом хосте, поэтому в режиме Ensure Accessibility никаких миграций данных производиться не будет, кластер продолжит работать в режиме полной производительности:
Если же у вас, например, задана политика кластера FTT=1 на четырех хостах, и компоненты дисковых объектов хранятся в соответствии с политикой RAID-5, то картина будет следующей:
В этом случае EMM также не будет перемещать никаких компонентов, так как данные дискового объекта в целом продолжают оставаться доступными. Более подробно о различных вариантах перехода в режим EMM вы можете почитать вот в этой статье.
Между тем, если vSAN object manager будет наблюдать ситуацию несоответствия политики надежности более чем 60 минут (см. параметр Object repair timer в конце статьи), то он, все-таки, запустит синхронизацию дисковых объектов, чтобы их конфигурация в итоге соответствовала действующим политикам.
Кстати, обратите внимание, что такое поведение кластера vSAN - это одна из причин, почему VMware Update Manager не делает обновление хостов ESXi кластера vSAN в параллельном режиме, а проводит это последовательно. Ведь если бы это происходило параллельно, не факт, что можно было бы выполнить требования опции Ensure Accessibility, а также происходило бы много миграций дисковых компонентов.
Кроме того, перед переходом в режим обслуживания хоста, EMM делает полную симуляцию перемещений данных, которые будут проведены в процессе выключения хоста. Например, у нас есть 3 виртуальные машины: vm01 с политикой RAID-0 (без избыточных копий данных), а также машины vm02 и vm03 в режиме RAID-1 (зеркало).
Обратите внимание на картинку ниже:
Здесь показано, что в соответствии с вариантом No data migration 3 дисковых объекта виртуальной машины vm01 окажутся недоступными, а 30, относящихся к vm02 и vm03, не будут соответствовать действующей политике по обеспечению надежности.
Если мы нажмем на ссылку See detailed report, то увидим подробную картину симуляции EMM:
То есть, vm01 окажется недоступной, а vm02 и vm03 будут Non-compliant, пока хост находится в режиме обслуживания.
Если же вы выберете вариант Ensure Accessibility, то прогноз будет следующим:
440 МБ дисковых объектов, относящихся к vm01 будут перемещены, а 30 объектов не будут соответствовать политике, при этом все ВМ останутся доступными. Также в VMware vSAN 6.7 Update 1 появились новые предупреждения о том, что в кластере есть активные процессы синхронизации, а также переходящие или уже перешедшие в режим обслуживания хосты ESXi.
Ну и напомним о настройке Object Repair Timer, которую мы детально рассматривали вот тут. Она то, как раз, и позволяет вам расширить окно обслуживания хоста ESXi в Maintenance Mode, если вам это требуется для проведения какой-то долгой операции. По умолчанию синхронизация не соответствующих политике дисковых объектов начнется через 60 минут:
Удобно, что эта настройка задается на уровне всего кластера vSAN, поэтому не нужно как раньше ходить на каждый хост ESXi и задавать ее.
Как многие из вас знают, в последней версии платформы виртуализации VMware vSphere 6.7 Update 1 компания VMware сделала поддержку горячей миграции vMotion для виртуальных машин, которые имеют на борту технологию vGPU в целях прямого использования ресурсов видеокарт NVIDIA.
Напомним, что ранее была введена поддержка операций Suspend/Resume для GRID, а теперь появилась и поддержка горячей миграции vMotion для машин с привязкой к карточкам NVIDIA Quadro vDWS.
Между тем, по умолчанию эта поддержка для виртуальных машин отключена, и чтобы начать пользоваться этой функцией нужно внести изменения в настройки vCenter. Если вы попробуете сделать vMotion машины с vGPU, то получите вот такую ошибку:
Migration was temporarily disabled due to another migration activity. vGPU hot migration is not enabled.
Вильям Лам написал о том, как включить поддержку vMotion в этой ситуации. Вам надо пойти в Advanced Settings на сервере vCenter и поставить там значение true на настройки vgpu.hotmigrate.enabled:
Эта настройка также рассматривается в документации вот тут. Надо отметить, что вступает в действие она сразу же, и вы можете делать не только vMotion, но и Storage vMotion любой машины (одновременно с vMotion, кстати). Помните, что для успешной работы vMotion на всех хостах ESXi должны быть карточки NVIDIA GRID и установлен соответствующий VIB-пакет.
Также установить эту настройку можно и с помощью командлета PowerCLI:
Многие администраторы VMware vSphere весьма консервативны и подолгу не обновляют версию платформы виртуализации, даже когда есть деньги на продление поддержки. Отчасти это верная стратегия - VMware так часто пропускает серьезные баги в мажорных релизах, что многие ждут пока обновление "настоится".
Но долго ждать тоже не стоит, так как можно недополучить преимущества новых версий. Например, всегда от релиза к релизу у платформы vSphere растет производительность в различных аспектах. В частности, давайте посмотрим, как выросла производительность технологии миграции хранилищ Storage DRS в VMware vSphere 6.7 по сравнению с версией 6.5.
VMware провела тестирование двух версий платформы и посмотрела, как быстро происходит генерация рекомендаций DRS в разрезе следующих операций в кластере:
CreateVM
CloneVM
ReconfigureVM (добавление дополнительного диска)
RelocateVM (перемещение на другой датастор)
Datastore Enter Maintenance (перевод датастора в режим обслуживания)
При одновременном исполнении в кластере множества данных задач одновременно имеет значение своевременное формирование рекомендаций (куда поместить ВМ, куда ее клонировать и т.п.). По итогам тестирования были получены следующие результаты (столбики показывают процент улучшения по времени для 5 одновременных исполняемых операций):
Для 16 одновременных операций:
Отдельно представлен график для операций Datastore Enter Maintenance:
Все это приводит к увеличению скорости развертывания и миграции виртуальных машин и их VMDK-дисков в больших инфраструктурах, где в этом участвует механизм SDRS (генерация рекомендаций по размещению виртуальных машин).
Как почти все знают, компания VMware в рамках конференции VMworld 2018 анонсировала доступность новой версии решения для создания отказоустойчивых хранилищ VMware vSAN 6.7 Update 1. В обновленном vSAN появилась масса новых возможностей, но сегодня мы расскажем о трех новых расширенных настройках (Advanced Options), про которые написал Cormac Hogan, и которые стали доступны для редактирования в графическом интерфейсе.
Ранее Кормак рассказывал про следующие расширенные настройки кластера vSAN:
VSAN.ClomRepairDelay - задержка перед началом ребилда отсутствующих компонентов.
VSAN.DomOwnerForceWarmCache - определяет, должны ли операции чтения производится со всех реплик дисковых объектов, либо с определенных сайтов растянутого (stretched) кластера vSAN.
VSAN.SwapThickProvisionDisabled - возможность сделать swap-файлы виртуальных машин тонкими, то есть растущими по мере наполнения данными.
Теперь эти три настройки в новой инкарнации можно найти в разделе:
При нажатии на ссылку EDIT можно открыть интерфейс их изменения:
1. Настройка Object Repair Timer.
Как было сказано выше, она определяет задержку, после которой начинается ребилд отсутствующих дисковых объектов в кластере после произошедшего сбоя. По умолчанию она установлена в 60 минут (время, которое нужно VMware Update Manager для обновления хоста ESXi). Также тут нужно достаточное время, чтобы не происходило ненужных срабатываний при временных проблемах в сети. Если вы просто тестируете продукт vSAN, то можете поставить ее, например, в 15 минут, чтобы посмотреть, как начнется процесс ребилда.
Если же надо вывести часть кластера в режим обслуживания дольше чем на час, то можно увеличить этот параметр. Ранее подобную настройку нужно было делать на каждом хосте ESXi, а теперь она едина для всего кластера.
2. Настройка Site Read Locality.
Эта настройка определяет, будут ли данные растянутого (stretched) кластера читаться из реплик дисковых объектов на уровне одного сайта (домена отказа), либо будут читаться из всех реплик дисковых объектов ВМ. Второй вариант подходит, когда между площадками у вас налажено высокоскоростное соединение (inter-site link), не отличающееся по скорости от внутреннего. Если же это совсем не так, то Read Locality можно отключить.
Также эта настройка работает и для кластеров vSAN состоящих только из двух узлов - и вот тут иногда бывает смысл ее менять, чтобы данные ВМ читались, например, только с одного хоста ESXi.
3. Настройка Thin Swap.
Она определяет, будут ли файлы подкачки виртуальных машин "тонкими", то есть растущими по мере наполнения данными. Тонкие swap-файлы экономят дисковое пространство, но создают совсем маленькую нагрузку по IO при аллоцировании блоков. По умолчанию тонкий своп включен.
И тут тоже надо отметить, что теперь эта настройка централизованно задается для всего кластера vSAN, а раньше нужно было ходить на каждый хост ESXi и выставлять ее там.
Таги: VMware, vSAN, Update, Storage, VMachines, DR
Уважаемые читатели! Некоторые из вас знают, что у нас на сайте есть цикл статей от Романа Гельмана, который разрабатывает различные функции своего PowerCLI-модуля Vi-Module. Они позволяют управлять многими аспектами виртуальной инфраструктуры VMware vSphere с помощью механизмов, недоступных в рамках стандартных средств управления.
Недавно Роман подал свой англоязычный блог ps1code.com на голосование по выбору лучшего блога о виртуализации Top vBlog 2018. И мы от лица всей редакции очень просим проголосовать за Романа - ведь его блог этого действительно достоин!
Спасибо вам заранее.
И вот статьи Романа на нашем ресурсе, чтобы вам удобнее было найти нужную функцию:
Совсем недавно стало известно о трех очень серьезных багах в платформе VMware vSphere, которые затронули, как платформу vSphere 5.x/6.x, так и средство создания отказоустойчивых хранилищ для виртуальных машин VMware vSAN 6.6/6.7.
1. Повреждение данных виртуальных дисков снапшотов формата SEsparse.
Начиная с VMware ESXi 5.5, диски стапшотов виртуальных машин стали создаваться в формате SEsparse. Такой диск создается в ESXi 5.5 если диск машины более 2 ТБ, а начиная с ESXi 6.0 / VMFS6 - он используется для снапшотов всех машин. Так что под угрозой практически все виртуальные машины со снапшотами. А ведь снапшоты используются всеми ВМ, для которых применяется резервное копирование через механизм vSphere API for Data Protection (например, с помощью продукта Veeam Backup and Replication).
Ну а суть бага заключается в том, что блоки данных могут оказаться поврежденными, что приводит к неконсистентности файлов для приложений (например, баз данных), а также иногда к невозможности загрузки виртуальной машины!
Баг и возможные способы решения описаны в KB 59216. В vSphere 6.7 Update 1 баг уже пофикшен. Для остального есть следующие апдейты:
Для ESXi 5.5 обновления нет, но вы можете отключить функцию "IO coalescing" для формата дисков SEsparse. Делается это следующей командой:
esxcli system settings advanced set -i 0 -o /COW/COWEnableIOCoalescing
2. Проблема консистентности виртуальных дисков машин на платформе vSAN 6.6.
Аналогично багу из прошлого пункта, здесь может произойти неприятность с целостностью данных виртуальных машин, которые работают в кластере хранилищ VMware vSAN 6.6. Это может случиться в следующих обстоятельствах:
vSAN начинает процесс ресинхронизации
В этот момент вы расширяете диск VMDK виртуальной машины
vSAN снова начинает ресинхронизировать уже расширенный диск виртуальной машины
Проблема описана в KB 58715. В этом случае вы сможете только восстановить консистентность виртуальных машин, но сами данные приложений вы уже не вернете.
3. Получение доступа root к хосту ESXi из виртуальной машины.
Если вы используете виртуальные машины с драйвером сетевого адаптера vmxnet3 (у него был еще один отдельный баг), то для непропатченных хостов есть возможность получения доступа root к шеллу ESXi из виртуальной машины.
Кстати, это было публично показано впервые:
#GeekPwn2018 Chaitin Tech security researcher f1yyy has escaped VMware EXSi and got root shell on the host for the first time in the world. After demonstrating it at GeekPwn 2018, f1yyy received the Best of Tech Award and was selected to the GeekPwn Hall of Fame.@GeekPwnpic.twitter.com/2Y2kYKaw4d
Информация об этой уязвимости опубликована в VMware advisory VMSA-2018-0027. Там же есть и названия необходимых вам патчей (обратите внимание, что багу подвержены также и платформы Workstation / Fusion).
Компания VMware выпустила документ, касающийся работы баз данных Oracle Database 12c на платформе VMware vSAN - Oracle Database on VMware vSAN 6.7. Основная тема дока - тестирование числа операций ввода-вывода (IOPS) и latency операций СУБД на хостах в All-Flash конфигурации, когда и ярус кэширования, и ярус хранения реализован на SSD-дисках:
В документе рассматривается 4 ключевых аспекта для реализации тяжелых баз данных:
Производительность OLTP-нагрузок в кластере all-flash vSAN.
Политики Storage Policy Based Management (SPBM) для управления хранилищами.
Построение платформы для бизнес-критичных задач уровня Tier-1.
Валидация архитектуры для уменьшения времени развертывания и операционных рисков.
Для тестирования использовались хосты ESXi в следующей конфигурации:
В тестах использовалось два типа рабочих нагрузок (R1 и R15), отличающихся конфигурацией ВМ, а также включенными или выключенными технологиями дедупликации и компрессии на стороне vSAN:
Описание рабочей нагрузки:
Базовые результаты по IOPS и latency для операций чтения и записи:
После результатов тестирования в документе есть секция с рекомендациями по исполнению Oracle на хранилищах vSAN, которые будет полезно почитать администратору БД и vSphere (большая их часть приведена в vSAN Design and Sizing Guide).
В догонку к найденным и, вроде бы, поборенным уязвимостям Meltdown и Spectre, в процессорах Intel нашли еще одну потенциальную дыру - L1 Terminal Fault Vulnerability, которая затрагивает современные процессоры (2009-2018 годов выпуска) и гипервизор VMware ESXi (а также и все остальные гипервизоры).
Для начала надо сказать, что на днях стали доступны вот такие патчи для платформы виртуализации VMware vSphere, которые настоятельно рекомендуется установить:
Суть уязвимости, описанной в CVE-2018-3646 заключается в том, что виртуальная машина, исполняемая на конкретном ядре, может получить доступ к данным других машин, использующих это ядро, или самого гипервизора через L1 Data Cache, который совместно используется машинами, выполняющими команды на данном ядре.
Для такой уязвимости возможны 2 типа векторов атаки:
Sequential-context - вредоносная машина получает доступ к данным другой ВМ, которая исполнялась на этом ядре ранее и получала доступ к кэшу L1.
Concurrent-context - вредоносная машина прямо сейчас получает доступ к данным ВМ или гипервизора, которые исполняются планировщиком на этом ядре.
Решение вопроса уровня Sequential-context заключается просто в накатывании патчей, которые не должны приводить к падению производительности (как это было с Meltdown и Spectre). А вот для избавления от риска применения вектора атаки Concurrent-context нужно включить фичу, которая называется ESXi Side-Channel-Aware Scheduler. И вот в этом случае влияние на производительность может уже быть существенным, поэтому нужно либо принять риск Concurrent-context, либо следить за производительностью систем.
Таким образом, процесс обновления инфраструктуры VMware vSphere должен выглядеть так:
Обновляете сначала серверы vCenter, потом хосты ESXi.
Смотрите, есть ли на хостах запас по CPU на случай возникновения проблем с производительностью.
Если запас есть - включаете функцию ESXi Side-Channel-Aware Scheduler и наблюдаете за производительностью систем по CPU.
Детальные инструкции по включению ESXi Side-Channel-Aware Scheduler вы найдете здесь. Действовать нужно по следующей схеме:
Ну и в заключение, вот список процессоров, которые подвержены атакам типа L1 Terminal Fault:
Кодовое имя процессора Intel
FMS
Товарное наименование Intel
Nehalem-EP
0x106a5
Intel Xeon 35xx Series;
Intel Xeon 55xx Series
Lynnfield
0x106e5
Intel Xeon 34xx Lynnfield Series
Clarkdale
0x20652
Intel i3/i5 Clarkdale Series;
Intel Xeon 34xx Clarkdale Series
Не так давно мы писали о новых возможностях платформы VMware vSphere 6.7 Update 1, где, помимо прочего, было обновлено средство для накатывания апдейтов на хосты - VMware Update Manager (VUM). Мы вкратце упоминали о его новых фичах, а сегодня посмотрим на них в деталях.
Сперва надо отметить, что Update Manager теперь полностью поддерживается в новом клиенте vSphere Client на базе технологии HTML5, где он получил несколько новых рабочих процессов по сравнению со устаревшим Web Client.
Итак, давайте взглянем подробнее:
1. Новая секция Datacenter and Cluster Overview.
Здесь мы видим версии ESXi, соответствие хостов базовым уровням и статусы предпроверок для процесса обновления (Remediation):
2. Доработанные рабочие процессы.
В разделе Update Manager Administration были обновлены некоторые рабочие процессы, а также появился один новый - возможность отфильтровать обновления по базовому уровню (baseline):
3. Улучшенные функции импорта.
Теперь можно импортировать патчи и образы ESXi по имени файла или указанному URL. Теперь это делается в один клик:
4. Улучшение представления Host Overview.
Теперь в Host Overview появилась дополнительная информация: включена ли функция Quick Boot, какие патчи установлены, в каком состоянии host compliance и предпроверки для обновления:
5. Проверки перед обновлением (Remediation Pre-Check).
В vSphere 6.7 и более поздних версий есть предпроверка обновления (Remediation Pre-Check). Они могут препятствовать накатыванию обновления на хост. Некоторые изменения может произвести сам VUM перед апдейтом хоста:
Отключить HA Admission Control
Отключить Fault Tolerance (FT)
Отключить Distributed Power Management (DPM)
Но некоторые настройки надо сделать вручную, например:
Отключить приводы CD-ROM
Функция Remediation Pre-Check проверит все необходимые требования и даст пользователю знать, если с его стороны нужны какие-нибудь действия.
6. Улучшения процесса обновления (Host Remediation).
Также был улучшен рабочий процесс Host Remediation - теперь на одном экране можно видеть и функцию remediation, и функцию планировщика обновлений (scheduler), которая размещена под списком апдейтов:
Также VMware убрала некоторые настройки, которые раньше можно было менять, например, возможность параллельного обновления хостов и отключение Quick Boot. Поэтому теперь осталось не так много настроек, все их можно посмотреть в Update Manager Overview:
7. Улучшения обновления виртуальных машин в части VMware Tools и Compatibility.
Самое главное, что теперь не нужно создавать baseline для обновления ВМ - ее можно выбрать в представлении VMware Tools и сделать сразу апгрейд тулзов, чтобы соответствовать версии хоста, одним действием:
То же самое можно сделать и в разделе VM Hardware, где обновляется виртуальное железо машин:
8. Обновление Firmware IO-контроллера.
Также появилась интеграция микрокода контроллера ввода-вывода с vSphere Update Manager (VUM), который использует утилиту обновления драйверов от вендора сервера. Таким образом, обновление драйвера I/O-адаптера можно включить в цикл обновления хоста и не заниматься этим отдельно.
Если VUM не нашел утилиты обновления от вендора, он предлагает загрузить ее (можно использовать как дефолтный, так и свой репозиторий):
Вчера мы написали о части того нового, что было представлено на конференции VMworld 2018, проходившей на днях в Барселоне, а сегодня расскажем об оставшихся анонсах.
Проект Dimension был представлен еще на VMworld 2018 в США, а сейчас VMware сделала доступной его бета-версию. Напомним, что это специальный сервис VMware по поставке, развертыванию, обслуживанию и сопровождению виртуальных датацентров.
VMware планирует договориться с вендорами аппаратного обеспечения таким образом, чтобы они поставляли оборудование, которое способно сразу после включения соединиться с облачными ресурсами VMware и обеспечить развертывание онпремизной инфраструктуры в рамках концепции Software-defined Datacenter (SDDC) на площадке заказчика.
Бета-версия будет доступна только отобранным VMware заказчикам, если у вас есть интерес принять участие - заполните форму вот тут.
2. Доступность Pivotal Container Service (PKS) как облачного сервиса и покупка Heptio.
На VMworld Europe 2018 компания VMware объявила о том, что этот сервис теперь станет облачным (VMware Cloud PKS), что позволит организовать управление гибридными средами Kubernetes в онпремизных и публичных облаках из единой точки.
Кроме того, на VMworld было объявлено о покупке компании Heptio, которая была основана создателями Kubernetes. Она предоставляет набор продуктов и профессиональных сервисов для управления контейнерами Kubernetes в онпремизных, публичных и гибридных облачных средах. Помимо управления контейнерами, решения Heptio предоставляют такие сервисы, как оркестрация приложений, поддержка жизненного цикла (развертывание, хэлсчек) и обеспечение доступности (снапшоты, резервное копирование).
Все продукты и технологии Heptio планируется включить в портфолио решений PKS и предоставлять контейнеры как услугу из облака (Kubernetes-as-a-Service).
3. Закрытая бета-программа для сервиса VMware Blockchain.
Мы уже затрагивали функциональность и развертывание блокчейн-платформы VMware. Blockchain на vSphere или BoV — это инструмент для развертывания Hyperledger Fabric v1.0 на платформе vSphere, или, другими словами, проект VMware, который помогает администраторам развернуть блокчейн-платформу для разработчиков на базе гипервизора ESXi.
Теперь блокчейн от VMware будет предоставляться как SaaS-платформа, которую предприятия смогут использовать из облака. При этом можно будет ограничивать пользователей данной платформы (permissioned blockchain system).
VMware Enterprise Blockchain уже используется в нескольких крупных компаниях, таких как Dell Technologies и Deloitte, для решения бизнес-задач. Участие в программе осуществляется только по приглашениям от VMware.
4. Возможность запуска ESXi на Raspberry PI (прототип).
На конференции был представлен прототип гипервизора для архитектуры компьютеров Raspberry PI. Это дает возможность для внедрения гипервизора VMware в сфере IoT (интернет вещей) на базе архитектуры ARM.
5. Улучшения Workspace One.
В ближайшее время будут представлены следующие улучшения решения Workspace ONE:
Продукт Workspace ONE Intelligence Automation Connector, который позволяет предоставлять аналитику и возможность управления и обновления различных сторонних программных и аппаратных компонентов. Это уже реализовано для приложений Slack и ServiceNow.
Сенсоры Workspace ONE Sensors для платформы macOS, которые дают информацию о состоянии программных и аппаратных компонентов настольных устройств Apple.
Решение Dell Provisioning for VMware Workspace ONE, которое позволяет произвести фабричную преконфигурацию устройств для дальнейшего управления ими в корпоративной инфраструктуре.
6. Улучшения Horizon 7 on VMware Cloud on AWS.
Тут обещают 2 основных улучшения:
Доступность сервисов Horizon 7 (VDI и RDSH, Full Clones и Instant Clones), а также продукта App Volumes на платформе VMware Cloud on AWS с предстоящими релизами Horizon 7.7 и App Volumes 2.15.
Интеграция онпремизного решения Horizon 7 с облаком VMware Cloud on AWS средствами Horizon Cloud Service. Это позволит упростить управление инфраструктурами с несколькими площадками и гибридными средами.
На этом все, информацию по остальным анонсам можно получить здесь.
Во время проходящей сейчас в Барселоне конференции VMworld Europe 2018 компания VMware выпустила обновление клиента для управления отдельными хостами ESXi - Embedded Host Client версии 1.32. Напомним, что прошлая версия этого продукта была выпущена еще в июле этого года, поэтому обновления пришлось ждать довольно долго.
Давайте посмотрим, что нового появилось в Host Client 1.32:
Улучшения функций Import / Export:
Файлы ISO и NVRAM теперь можно экспортировать и импортировать (если это поддерживается соответствующей версией ESXi).
При экспорте машины можно выбрать только некоторые файлы.
Все расширенные настройки ВМ экспортируются по умолчанию.
Было исправлено несколько багов в мастере экспорта.
Общие улучшения:
Предварительный просмотр прав доступа (пермиссий) теперь отображается корректно.
Пакеты Support Bundles теперь генерируются на лету.
Восстановлена функциональность работы под доменным пользователем.
Адреса устройств Fibre Channel WWN отображаются в шестнадцатиричном формате.
Скачать VMware ESXi Embedded Host Client 1.32 можно по этой ссылке.
На днях компания VMware выпустила финальную версию своего руководства по обеспечению безопасности виртуальной инфраструктуры vSphere 6.7 Update 1 Security Configuration Guide. Напомним, что ранее мы писали о документе vSphere 6.5 Update 1 SCG, который описывал основные аспекты обеспечения безопасности прошлой версии платформы (оказывается, был и гайд по vSphere 6.7 - он публично не анонсировался, но теперь находится в статусе Deprecated).
Напомним, что этот документ доносит концепцию "Secure by design", что означает, что среда VMware vSphere изначально настроена оптимальным образом с точки зрения безопасности, поэтому вносить изменения вам нужно только в случае наличия каких-либо специальных требований в вашей инфраструктуре.
В документе, помимо описания рекомендуемой настройки и лога изменений, есть следующие полезные колонки:
Hardening - указывает на то, что это действительно настройка, которой нужно уделить внимание при конфигурации.
Site Specific Setting - говорит о том, что задать конфигурацию должен сам пользователь, в зависимости от его окружения.
Audit Setting - указывает, что вам необходимо время от времени проверять эту настройку, чтобы убедиться, что значение по умолчанию не было изменено администратором необоснованно.
Desired value - рекомендуемое значение, оно же и является значением по умолчанию, если это не site specific.
Сейчас распределение по этим настройкам выглядит так (50 настроек в vSphere 6.7 U1 против 68 опций в версии vSphere 6.5 U1):
Давайте посмотрим на отличие vSphere 6.7 U1 SCG от прошлых версий руководства:
Появились настройки категории deprecated - они описывают параметры ESXi или vCenter, которые больше нет необходимости изменять, так как они потеряли актуальность. Все настройки этой категории приведены в отдельном документе, который настоятельно рекомендуется изучить. Если вы их использовали - то лучше перестать это делать, так как это только добавляет дополнительной работы по их обслуживанию.
Больше нет категории "Risk Profiles". Причина в том, что только настройка "ESXi.enable-strict-lockdown-mode" подпадает под Risk Profile 1, а остальные находятся во 2-й или 3-й категории, поэтому было решено отказаться от этой таксономии. Вместо этого было добавлено больше содержимого в колонку Vulnerability Discussion, где обсуждаются конкретные факторы риска.
Настройка vNetwork.enable-bpdu-filter переместилась из категории Hardening в Site Specific, так как при нормальных условиях функционирования сети ее менять не требуется (а она также затрагивает конфигурацию аппаратных коммутаторов и гостевой ОС). Да, она защищает от Spanning Tree Loops, но в нормально настроенной сетевой конфигурации менять ее не следует.
В гифке ниже можно посмотреть прогресс Security Configuration Guide с версии vSphere 6.5:
Скачать VMware vSphere 6.7 Update 1 Security Configuration Guide можно по этой ссылке.
Наш читатель Илья обратил внимание на то, что совсем недавно, 23 октября, компания VMware обновила образы своего гипервизора не последних мажорных версий - а именно вышли обновления: